메뉴

#LLM 서빙

LL
r/LocalLLaMA 30일 전
IMP 7

16대 DGX Spark 클러스터 구축 완료

엔비디아 DGX Spark 16대로 200Gbps 통신 속도의 고성능 클러스터 구축을 완료한 사례입니다. 통일 메모리(Unified Memory) 용량을 극대화해 대규모 언어 모델(GLM-5.1-NVFP4) 서빙을 수행하며, 향후 Mac Studio를 추가해 프리필과 디코드 단계를 분리할 계획입니다.

NVIDIA DGX Spark 클러스터 구축 통일 메모리
MP
MarkTechPost 41일 전
IMP 8

문샷 AI, 멀티 데이터센터 LLM 서빙 혁신

문샷 AI와 칭화대 연구진이 대규모 언어 모델(LLM)의 추론 방식을 혁신하는 멀티 데이터센터 서빙 아키텍처 'PrfaaS(Prefill-as-a-Service)'를 제안했습니다. 이 아키텍처는 연산 집약적인 프리필(Prefill) 작업을 별도의 클러스터로 분리하고, 하이브리드 어텐션 모델을 통해 크게 감소된 KVCache를 일반 이더넷망으로 전송하여 54% 높은 처리량을 달성합니다.

LLM 서빙 KVCache 분산 아키텍처